"""
在urllib中，一样可以使用XPath进行信息提取，此时，安装lxml模块，然后将网页数据通过lxml下的etree转化未treedata的形式
    源码（源文件）：字符串——urllib爬取得到的数据
    审查元素：树结构、节点——XPath可以处理的数据
"""

import urllib.request
from lxml import etree

data = urllib.request.urlopen("http://www.baidu.com").read().decode('utf-8','ignore')
print(len(data))
print(type(data))
tredata = etree.HTML(data)
print(len(tredata))
title = tredata.xpath("/html/head/title/text()")
#判断是否为迭代器
if (str(type(title)) == "<class 'list'>"):
    pass
else:
    title = [i for i in title]
print(type(title))
print(title[0])

"""
注意1：有时候通过xpath表达式返回的不是列表形式，而是一个迭代器/生成器，这时需要使用for循环进行遍历提取数据
"""